Adapter les modèles de langue aux longs documents

Résultat scientifique Numérique

Les modèles de langue sont performants, mais coûteux en ressources lorsqu'il s'agit de traiter de longs documents comme des livres entiers, ce qui oblige souvent à les découper en plusieurs blocs. Les résultats des études d’Arthur Amalvy, doctorant au LS2N (CNRS/Nantes Université/Ecole Centrale de Nantes) et au LIA, Richard Dufour, professeur à Nantes Université et membre du LS2N et Vincent Labatut, maître de conférences à Avignon Université et membre du LIA mettent en évidence que ce découpage peut nuire aux performances de ces modèles. Pour pallier ce problème, les scientifiques ont proposé une méthode permettant de récupérer des informations pertinentes à l’échelle d’un texte long.

Ces dernières années, les modèles de traitement du langage naturel ont vu leurs performances augmenter drastiquement : en témoignent l'avènement récent de ChatGPT et des autres grands modèles de langues qui tentent de le surpasser comme le français Mistral. Dans cette course à la performance, un aspect est parfois négligé : celui du traitement efficace des longs documents. Le coût en ressources de ces modèles augmente en effet fortement en fonction de la taille des documents d'entrée, ce qui est un réel défi lorsqu'on souhaite les appliquer par exemple à l'échelle d'un livre entier.

Ainsi, ces modèles découpent souvent les longs documents en blocs, de manière à traiter la tâche considérée dans un temps raisonnable. Mais cela entraîne une perte de l'information contextuelle globale à l'échelle du document, qui aurait pu s'avérer précieuse.

C'est en tout cas ce qu’ont voulu vérifier les trois auteurs : d’Arthur Amalvy, doctorant au Laboratoire des sciences du numérique de Nantes (LS2N - CNRS/Centrale Nantes/Nantes Université) et au Laboratoire informatique d’Avignon (LIA - Avignon Université), Richard Dufour, professeur à Nantes Université et membre LS2N et Vincent Labatut, maître de conférences à Avignon Université et membre du LIA. Ils ont étudié l'impact de cette information perdue sur la tâche de détection d'entités nommées, une tâche fondamentale dans de nombreux systèmes de traitement du langage naturel qui consiste à reconnaitre des entités dans un texte et à déterminer leurs types (lieux, personnes, organisations, etc.). Cette étude compare la performance d’un modèle de langue sur des chapitres de romans en fonction du contexte reçu : local en n’utilisant que les informations présentes dans chaque « bloc », ou global au document. En utilisant le contexte global, le modèle est plus performant lorsqu'il s'agit de détecter et de classifier le type des entités nommées d'un jeu de données d'évaluation, ce qui met en évidence l'intérêt de la prise en compte de ce contexte. L’étude a été présentée lors de la conférence 2023 de l'Association for Computational Linguistics (ACL). 

Contact

Communication Bretagne et Pays de la Loire